查看原文
其他

关于序列联配的清单

2017-06-29 徐洲更 生信媛

引言

生物信息学的基础可认为是序列分析。测序技术被发明之后,大规模的测序产生了大量的生物学数据,包括DNA, RNA, 蛋白质等。想通过实验找到海量数据背后的功能和意义,就相当于一只蚂蚁在不断伸长橡皮筋中企图爬到终点一样。因此为了能够尽可能挖掘出新数据的含义,我们就要去序列进行分析。

序列分析的核心是序列联配(sequence alignment)。无论是寻找同源基因,构建系统发生树,还是高通量数据分析,都依赖于最基础的序列联配知识。因此,当夸夸其谈高通量测序数据分析的时候,你可能需要了解一些关于序列联配的基础知识。

  • 联配是在两个或更多序列的相同区域寻找最大形似性的任务

  • 联配只能找到相似性,无法直接找到同源性

  • 蛋白质序列间比较更容易发现同源性

  • 由于进化上氨基酸有一定概率发生变化,所以真正的匹配不比相同

  • 替代矩阵用来对联配结果进行计分,常见的有PAM替代矩阵和BLOSUM替代矩阵

  • 替代矩阵的选择要考虑到进化程度,序列长度的一致性,实验对象

  • 引入插入空缺是为了增加相似度,但是需要使用空缺罚分(gap penalty)进行限制。而动态规划算法可以确定引入最优空缺

  • 联配分为全局联配(global alignment)和局部联配(local alignment).前者是比较或寻找整条序列间都密切相关的序列,后者找部分序列相关,如不同蛋白间的结构域。

  • 采用未知蛋白质的序列查询搜索时,初期用局部联配找到序列高度相关的区域,然后使用全局联配对序列上剩余的不太相似的区域进行联配。

  • 你可能从来都没有听说过,但是需要知道BaliBase是一个用于评价多序列比对工具质量的数据库,文章发表在1999年,但是数据库最新一次更新在2016年12月。

  • 一句非常正确的废话是,没有最好的联配算法和工具,只有最合适当前问题的工具

  • 搜索数据库大家可能只知道到BLAST, 但是其实还有FASTA,基于K-mer算法

  • 对于BLAST无法直接找到的远源蛋白或基因,可以用PSI-BLAST

  • 搜索数据库得到的E值(expectation value)用于评价联配的优劣程度和数据库搜索的可信度。E值表示至少为S分的联配的数目,S是指偶然搜索有n条完整数据库中所期待的值。看不懂没有关系,只要知道E值越小联配越好,一致度比较高。



  • 会用NCBI上BLAST的一个特征就是懂得如何选择合适的参数


  • 如果未知序列和已知功能的序列的相似性仅限于几个关键的残基,或者说是motif(模体),InterPro是一个不错的选择,它可以聚类和预测功能与和重要位点。

  • MEME全称是multiple expectation maxmization for motif elicitation,是用来寻找Motif的一种程序

  • 你可以去PROSITE和Pfam里找蛋白质的模式和模体,根据找到的模体,用PHI-BLAST去搜索更多包含该模体的基因或蛋白。



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存